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PROCEDE DE RECONNAISSANCE DE PAROLE DISTRIBUEE 



La presente invention est relative au domaine de la commande vocale 
d'applications, exercee sur des terminaux utilisateurs, grace a la mise en 
oeuvre de moyens de reconnaissance de la parole. Les terminaux utilisateurs 
consideres sont tous les dispositifs dotes d'un moyen de capture de la parole, 
communement un microphone, possedant des capacites de traitement de ce 
son et relies a un ou des serveurs par un canal de transmission. II s'agit par 
exemple d'appareils de commande, de telecommande utilises dans des 
applications domotiques, dans des automobiles (commande d'auto-radio ou 
d'autres fonctions du vehicule), dans des PC ou des postes telephoniques. Le 
champ des applications concernees est essentiellement celui ou I'utilisateur 
commande une action, demande une information ou veut interagir a distance 
en utilisant une commande vocale. L' utilisation de commandes vocales n'exclut 
pas I'existence dans le terminal utilisateur d'autres moyens d'action (systeme 
multi-modal), et le retour d'informations, d'etats ou de reponses peut egalement 
se faire sous forme combinee visuelle, sonore, olfactive et tout autre moyen 
humainement perceptif. 

De maniere generale, les moyens pour la realisation de la 
reconnaissance de parole comprennent des moyens d'obtention d'un signal 
audio, des moyens d'analyse acoustique qui extraient. des parametres de 
moderation et enfin des moyens de reconnaissance qui comparent ces 
parametres de modelisation extraits a des modeles, et proposent la forme 
memorisee dans les modeles qui peut etre associee au signal de la facon la 
plus probable. Optionnellement des moyens de detection d'activite vocale VAD 
(" Voice Activation Detection ") peuvent etre utilises. Ms assurent la detection 
des sequences correspondant a de la parole et devant etre reconnues. lis 
extraient du signal audio en entree, en-dehors des periodes d'inactivite vocale, 
des segments de parole, qui seront ensuite traites par les moyens d'extraction 
de. parametres de modelisation. 
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Plus particulierement, I'invention porte sur les interactions entre les 
trois modes de reconnaissance de la parole dits embarque, centralise et 
distribue. 



Dimsain-mc>de^HgGoi^ embarquee, I'ensemble 

des moyens pour effectuer la reconnaissance de parole se trouvent au niveau 
du terminal utilisateur. Les limitations de ce mode de reconnaissance sont done 
liees notamment a la puissance des processeurs embarques, et a la memoire 
disponible pour stacker les modeles de reconnaissance de parole. En 
contrepartie, ce mode autorise un fonctionnement autonome, sans connexion a 
un serveur, et a ce titre est voue a un fort developpement lie a la reduction du 
cout de la capacite de traitement. 

Dans un mode de reconnaissance de la parole centralisee, toute la 
procedure de reconnaissance de parole et les modeles de reconnaissance se 
trouvent et s'executent sur une machine, appelee generalement serveur vocal, 
accessible par le terminal utilisateur. Le terminal transmet simplement au 
serveur un signal de parole. Cette methode est utilisee notamment dans les 
applications offertes par les operateurs de telecommunication. Un terminal 
basique peut ainsi acceder a des services evolues, actives a la voix. De 
nombreux types de reconnaissance de parole (robuste, flexible, tres grand 
vocabufaire, vocabulaire dynamique, parole continue, mono ou multi locuteurs, 
plusieurs langues, etc ) peuvent etre implements dans un serveur de 
reconnaissance de parole. En effet, les machines centralists ont des 
capacites de stockage de modeles, des tallies de memoire de travail et des 
puissances de calcul importantes et croissantes. 

Dans un mode de reconnaissance de parole distribute, les moyens 
d'analyse acoustique sont embarques dans le terminal utilisateur, les moyens 
de reconnaissance etant au niveau du serveur. Dans ce mode distribue, une 
fonction de debr ullage associee aux moyens d'extraction des parametres de 
moderation peut etre avantageusement realisee a la source. Seuls les 
parametres de moderation sont transmis, ce qui permet un gain substantiel en 
debit de transmission, particulierement interessant pour les applications 
multimodales. De plus, le signal a reconnaTtre peut etre mieux protege contre 
les erreurs de transmission. Optionnellement on peut aussi embarquer la 
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detection d'activite vocale (VAD) pour ne transmettre les parametres de 
moderation que durant les sequences de parole, ce qui a pour avantage de 
reduire de maniere importante la duree de transmission active. La 
reconnaissance de parole distribute permet en outre de vthiculer sur le meme 

5 canal de transmission des signaux de parole et de donnees, notamment texte, 
images ou videos. Le reseau de transmission peut etre par exemple de type IP, 
GPRS, WLAN ou Ethernet. Ce mode permet egalement de benef icier de 
procedures de protection et de correction contre les pertes de paquets 
constituant le signal transmis a destination du serveur. Cependant il necessite 

10 la disponibilite de canaux de transmission de donnees, avec un protocole strict 
de transmission. 

L'invention propose un systeme de reconnaissance de parole 
comportant des terminaux utilisateurs et des serveurs combinant les differentes 
fonctions offertes par les modes de reconnaissance de parole embarquee, 
15 centralisee et distribute, pour offrir le maximum d'efficacite, de contort et 
d'ergonomie aux utilisateurs de services multi modaux ou la commande vocale 
est utilisee. 

Le brevet US 6 487 534-B1 decrit un systeme de reconnaissance de 
parole distribute comportant un terminal utilisateur disposant des moyens de 

20 detection d'activitt vocale, de moyens detraction des parametres de 
modelisation et de moyens de reconnaissance. Ce systeme comprend en outre 
un serveur disposant egalement de moyens de reconnaissance. Le procede 
decrit est consiste a effecteur une premiere phase de reconnaissance au 
niveau du terminal utilisateur. Puis en fonction des resultats de cette premiere 

25 phase, les parametres de modelisation calcules au niveau du terminal peuvent 
etre alors envoyes a destination du serveur, afin notamment de determiner 
cette fois grace aux moyens de reconnaissance du serveur, une forme 
memorisee dans les modeles de celui-ci et associee au signal envoye. 

Le but vise par le systeme decrit dans le document cite est de diminuer 

30 la charge au niveau du serveur Cependant il s'ensuit que la reconnaissance 
s'effectue au mieux apres le temps necessaire a la premiere phase dans le 
terminal. Lorsqu'une deuxieme phase doit avoir lieu, le temps de 
reconnaissance total est egal au temps de reconnaissance de la premiere 



1er depot 



phase ajoute a celui de la seconde phase. 

Un but de la presente invention est de proposer un procede qui vise a 
optimiser le temps necessaire a la reconnaissance de parole, et done a la 
LealisatioTL de Ta ction demandee par I'utilis ateor: 



Suivant un premier aspect, I'invention propose un procede de 
reconnaissance de parole distribute, comportant au moins un terminal 
utilisateur et au moins un serveur, aptes a communiquer entre eux par 
I'intermediaire d'un reseau de telecommunications, selon lequel au niveau du 
terminal utilisateur, on realise au moins les etapes suivantes : 

- obtenir un signal audio a reconnaTtre ; et, 

- calculer des parametres de modelisation du signal audio a 
reconnaTtre; et, 

- tenter d'associer une forme memorisee aux parametres de 
modelisation; et, 

- independamment de I'etape de tentative d'association d'une 
forme memorisee, emettre a destination du serveur un signal indiquant 
le signal audio a reconnaTtre; 

et au niveau du serveur, on realise au moins les etapes suivantes : 

- recevoir le signal emis par le terminal utilisateur ; 

- tenter d'associer une forme memorisee au signal regu. 

Un procede selon I'invention permet d'eviter de cumuler un temps de 
traitement au niveau du terminal et un temps de traitement au niveau du 
serveur, et ainsi de diminuer le temps pour donner suite a la demande de 
I'utilisateur. 

II permet aussi de tirer avantage des avantages des caracteristiques 
des mo-yens de reconnaissance dont disposent respectivement le terminal et le 
serveur, notamment lorsque le signal a reconnaTtre est de nature indefinie pour 
determiner au plus vite la reponse a effectuer. 

Dans des modes de mise en oeuvre preferes, le signal emis par le 
terminal utilisateur a destination du serveur est selectionne parmi au moins le 
signal audio a reconnaTtre et un signal indiquant les parametres de 



5 



modelisation. Mors, si le signal regu est de type audio, le serveur calcule des 
parametres de modelisation du signal audio recu; et tente d'asspcier une forme 
memorisee aux parametres de modelisation du signal audio regu. Si le signal 
recu indique des parametres de modelisation, le serveur tente d'associer une 
5 forme memorisee auxdits parametres de modelisation. 

Le choix du signal transmis - soit le signal audio (compresse ou non), 
soit le signal delivre par les moyens de calcul des parametres de modelisation 
du terminal - peut etre defini soit par le type d'appiications en cours, soit par 
I'etat du reseau, soit suite a une coordination entre des moyens de controle 
10 respectifs du terminal et du serveur. 

Avantageusement, Pobtention au terminal du signal a reconnaTtre 
comporte une detection d'activite vocale appliquee a un signal audio d'origine 
pour produire le signal audio a reconnaTtre en debarrassant le signal d'origine 
de periodes d'inactivite vocale. Le signal a emettre sera done selectionne 
15 parmi ce signal audio debarrasse de periodes d'inactivite vocale et le signal 
indiquant des parametres de modelisation. 

Dans un mode de mise en ceuvre du procede selon I'invention, le 
signal emis est selectionne un signal parmi au moins le signal audio d'origine, v 
le signal audio representatif du signal d'origine debarrasse de periodes 
20 d'inactivite vocale apres detection vocale et le signal indiquant les parametres 
de modelisation. 

Avantageusement, si le signal recu est un signal audio debarrasse de 
periodes d'inactivite vocale, le serveur calcule des parametres de modelisation 
du signal regu et tente d'associer une forme memorisee aux parametres de 

25 modelisation du signal audio regu. Lorsque le signal regu est un signal de type 
audio, mais sur lequel il n'a pas ete realisee de detection d'activite vocale, le 
serveur realise une detection d'activite vocale appliquee au signal audio regu 
pour produire un signal audio a reconnaTtre en debarrassant le signal d'origine 
de periodes d'inactivite vocale. Puis il calcule des parametres de 

30 modelisation du signal audio a reconnaTtre. Enfin, il tente d'associer une forme 
memorisee aux parametres de modelisation. 

Avantageusement, on choisit la forme m<§moris§e associee determinee 
au niveau du terminal quand elle existe. On choisit la forme memorisee 
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associee determine la premiere. Ou encore on choisit la forme memorisee 
associee la meilleure selon un critere defini (par exemple, probability de 
vraisemblance). 

Suivant un d_ejMeme^specU^^ utilisateur 

pour mettre en ceuvre le procede de reconnaissance de parole distribuee decrit 
ci-dessus. 

Suivant un troisieme aspect, I'invention propose un serveur pour mettre 
en ceuvre le procede de reconnaissance de parole distribuee decrit ci-dessus. 

Dans un mode de realisation prefere, certains au moins des moyens 
pour realiser le traitement de la reconnaissance au niveau du terminal (moyens 
d'extraction de parametres ou des moyens de reconnaissance) ont ete 
telecharges par I'intermediaire du reseau de telecommunications, lis peuvent 
par exemple etre telecharges par le serveur. 

D'autres caracteristiques et avantages de I'invention apparaTtront 
encore a la lecture de la description qui va suivre. Celle-ci est purement 
illustrative et doit etre lue en regard des dessins annexes sur lesquels la figure 
unique est un schema representant un exemple de terminal utilisateur et un 
exemple de serveur selon I'invention. 

Le systeme represent sur la figure unique comporte un serveur 1 et 
un terminal utilisateur 2, qui communiquent entre eux par I'intermediaire d'un 
reseau (non represent) disposant de canaux pour la transmission de signaux 
de voix et de canaux pour la transmission de signaux de donnees. 

Le terminal 2 comporte un microphone 4, qui recueille la parole a 
reconnattre d'un utilisateur sous forme d'un signal audio. Le terminal 2 
comporte egalement des modules 5, 6, 7. Le module de detection d'activite 
vocale VAD 5 assure la detection des sequences correspondant a de la parole 
et devant etre reconnues. Ce module 5 est par exemple concu pour dctecter 
rapidement des mots de commandes. Le module 6 effectue une analyse 
acoustique de facon connue en soi : il calcule des parametres de moderation, 
30 tout en realisant une fonction de debruitage. 

Le module 7 execute un algorithme de reconnaissance de type connu 
par exemple a base de modeles de Markov caches avec un vocabulaire de 
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taille reduite.' Ce moteur de reconnaissance 7 peut fonctionner en mode 
monolocuteur, et necessite une phase d'apprentissage prealable a partir de la 
voix de I'utilisateur. 

Le terminal comprend un controleur 8 adapte pour selectionner, un 
5 signal audio parmi le signal audio en sortie du microphone 4, un signal 
representatif des segments de parole extraits par les moyens de detection 
d'activite vocale 5 et un signal indicatff des parametres de modelisation 6. 

Le terminal comprend en outre une interface 9 pour remission sur le 
reseau, a destination du serveur, du signal selectionne par le controleur 8. 
10 Le serveur 1 comporte une interface reseau 10 pour recevoir les 

signaux qui lui sont adresses et un controleur 1 1 qui analyse le signal recu et le 
djrige ensuite selectivement vers un module de traitement du serveur parmi 
plusieurs modules 12,13,14. Le module 12 est un detecteur d'activite vocale, 
qui assure la detection des segments correspondant a de la parole de facon 
15 similaire au module 5. Toutefois, il peut etre different du module 5, et par 
exemple concu pour detecter rapidement des phrases entieres. Son temps de, 
reaction peut done etre different de celui du module 5. Dans I'exemple present, 
son temps de reaction sera plus lent. Le module 13 assure le calcul de;; 
parametres de modelisation de facon semblable au module de calcul 6 du 
20 terminal. Toutefois, le modele de calcul peut etre different. Le module 14 
execute un algorithme de reconnaissance de type connu, par exemple a base 
de modeles de Markov caches avec un vocabulaire de taille quelconque, par 
exemple superieur a 100 000 mots. Ce moteur de reconnaissance 14 compare 
les paramdtres en entree a des modeles de parole qui represented des mots 
25 ou des phrases, et determine la meilleure forme associee, compte tenu de 
modeles syntaxiques qui decrivent les enchainements de mots attendus, de 
modeles lexicaux qui precisent les differentes prononciations des mots, et de 
modeles acoustiques representatifs des sons prononces. Ces modeles sont 
par exemple multilocuteurs, capables de reconnaitre, avec une bonne fiabiiite, 
30 de la parole, independamment du locuteur. 

Le controleur 11 commande le module de VAD 12, le module de calcul 
de parametres 13 et le moteur de reconnaissance 14 de facon a : 
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a/ lorsque le signal recu par Interface reseau 10 est de type audio et 
n'indique pas de segments de parole obtenus apres detection d'activite vocale, 
activer le module de detection d'activite vocale 12 en leur adressant le signal 
recu en tant guesjgnaj d'entrej^juis_ackesse^ 
par le module 12 au module de calcul de parametres de moderation 13 en 
tant que parametres d'entree, puis adresser les parametres extraits par ce 
module 13 au moteur de reconnaissance 14 en tant que parametres d'entree ; 

b/ lorsque le signal recu par I'interface de reception 10 indique des 
segments de parole apres detection d'activite vocale, activer le module de 
calcul de parametres de moderation 13 en lui adressant le signal recu en tant 
que signal d'entree, puis adresser les parametres extraits par ce module 13 au 
moteur de reconnaissance 14 en tant que parametres d'entree ; 

c/ lorsque le signal recu par I'interface de reception 10 indique des 
parametres de modelisation, adresser lesdits parametres indiques au moteur 
de reconnaissance 14 en tant que parametres d'entree. 

Considerons une application dans laquelle I'utilisateur enonce : 
« appelle Antoine », Antoine figurant dans le repertoire local. Le signal audio 
correspondant obtenu par le microphone 4 du terminal est traite par le module 
VAD 5, qui en extrait des segments de parole qui sont a leur tour adresses aux 
module 6, qui calcule des parametres de modelisation. Ces parametres sont 
ensuite adresses au moteur de reconnaissance 7 pour y associer une forme 
issue du dictionnaire local. En parallele, le controleur 8 a selectionne un signal 
a emettre parmi le signal audio d'origine, un signal audio indiquant les 
segments de parole extraits du signal audio d'origine apres detection d'activite 
vocale et un signal indiquant les parametres de modelisation. Le signal 
selectionne est emis a I'aide de I'interface d'emission 9 a destination du 
serveur. 

Dans le mode dc realisation considers, ie signal selectionne par le 
controleur du terminal 8 est le signal audio d'origine, qui a ete envoye en 
direction du serveur des qu'il a ete acquis par le microphone 4. 

Le serveur receptionne le signal a reconnaTtre envoye par le terminal, 
et Ie traite comme indique en a/ ci-dessus. 
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Le processus de reconnaissance s'effectue ainsi de part et d'autre. Le 
terminal determine dans un temps T1 une forme associee F1; le serveur 
determine une autre forme associee F2 dans un temps T2 different de T1 . Une 
des deux formes est retenue selon un critere de choix. Le critere de choix peut 
est par exempie le suivant : on choisit la forme la plus rapidement trouvee et ce 
des quelle est trouvee, sans attendre la determination de Tautre forme. 
L'applicatif local au terminal passe alors a la phase applicative suivante. 
Puis I'utilisateur enonce « rechercher le message de Josiane ». 
La reponse au niveau du terminal n'est pas consistante et se solde par 
un rejet apres un temps TV. La reconnaissance s'effectue en parallele au 
niveau du serveur et aboutit en un temps T2' a la determination d'une forme 
associee, qui va permettre de jouer le message demande par I'utilisateur. 

Un procede de reconnaissance selon ('invention permet ainsi de 
combiner les avantages des systemes de reconnaissance au niveau du 
terminal et du serveur. Les mots courts sont rapidement determines par le 
moteur de reconnaissance 7 du terminal et les phrases plus complexes sont 
reconnues rapidement par le moteur de reconnaissance 14 du serveur. Le 
temps de traitemept est d'autant plus optimise que les VAD respective^ 
presentent des caracteristiques adaptees, la VAD 5 du terminal etant par 
exempie congue pour detecter rapidement des mots de commande et la VAD 
12 du serveur etant congue pour detecter rapidement des phrases. 

Le controleur du terminal 8 determine le signal a transmettre a 
destination du serveur par exempie en fonction de criteres de controle. Ces 
criteres peuvent par exempie etre lies a I'application concernee, ou a des 
problematiques de charges des differents moyens de traitement au niveau du 
terminal et du serveur (les moyens de controle respectifs peuvent cooperer), ou 
encore a des problematiques de disponibilite de canaux de transmission voix 
ou de canaux de transmission donnees. 

Par exempie, pour certains terminaux, le signal envoye sera 
systematiquement un signal indiquant des parametres de moderation. Pour 
d'autres terminaux, le signal envoye dependra de Tapplication en cours. 

Dans un mode de realisation de ('invention, en cas de problemes de 
disponibilite de canaux de donnees ou du module de calcul 6 du terminal 
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considere, le controleur 8 est adapte pour transmettre le signal audio (d'origine 
ou apres VAD). Ce signal audio pourra etre transmis sur les canaux de 
transmission de signaux de voix disponibles. 

Le— fage n de de termin er la form o f i naloment reterme— et-qui se r a 

5 exploitee lors de la poursuite de I'application, entre une forme associee fournie 
par le module de reconnaissance du serveur et une forme associee fournie par 
celui du terminal peut s'effectuer sur la base de differents criteres, qui peuvent 
varier d'un terminal a I'autre, mais aussi d'une application a I'autre ou d'un 
contexte donne a un autre. 

10 Ces criteres peuvent donner par exemple priorite a la reconnaissance 

effectuee au niveau du terminal, ou a la forme associee presentant le plus fort 
taux de probability ou encore a la forme determinee la plus rapidement. Ces 
criteres de choix peuvent etre integres par exemple dans les contrdleurs 8, 1 1 
du terminal, ou du serveur. 

15 Le serveur selon I'inyention est 6galement apte a effectuer de la 

reconnaissance de parole sur un signal transmis par un terminal ne disposant 
pas de moyens d'extraction de parametres de modelisation, ni de moyens de 
reconnaissance (ou dont les moyens d'extraction ou de reconnaissance sont 
inactifs) et disposant eventuellement de VAD. 

20 Dans un mode de realisation, le moteur de reconnaissance 7 du 

terminal 2 est un programme executable telecharge, par exemple depuis le 
serveur par des moyens classiques de transfert de donnees. 

Avantageusement, pour une application donnee du terminal 2, des 
modeles de reconnaissance du terminal peuvent etre telecharges ou mis a jour 

25 au cours d'une session applicative connectee au reseau. 

D'autres ressources logicielles utiles a la reconnaissance de parole 
peuvent aussi etre telecharges depuis le serveur 1, comme le module 6 de 
caluul de parametres de modelisation ou le detecteur d'activite vocale 5. 

D'autres exemples pourraient etre decrits, mettant en ceuvre par 

30 exemple des applications liees aux voitures, a I'electromenager, multimedia. 

Comme presente dans les exemples de realisation ci-dessus decrits, 
un systeme selon I'invention permet d'utiliser dans un delai de traitement 
optimise pour un resultat optimise les differentes ressources necessaires au 
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traitement de' la reconnaissance de la parole et presentes au niveau du 
terminal (par exemple par telechargement) et du serveur. 
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REVINDICATIONS 

1-Procede de reconnaissance de parole distribute, comportant au 
moins un terminal utilisateur et au moins un serveur aptes a communiquer 
-efrtre-eux-par rinlerinediaire d'Un reseau de telecommunications, selon lequel 
au niveau du terminal utilisateur, on realise au moins les etapes suivantes : 

- obtenir un signal audio a reconnaTtre ; 

-calculer des parametres de modelisation du signal audio a 
reconnaTtre; et 

-tenter d'associer une forme memorisee aux parametres de 
modelisation; et 

- independamment de I'etape de tentative dissociation d'une forme 
memorisee, emettre a destination du serveur un signal indiquant le signal audio 
a reconnaTtre; 

et selon lequel au niveau du serveur, on realise au moins les etapes 
suivantes : 

- recevoir le signal emis par le terminal utilisateur ; 

- tenter d'associer une forme memorisee au signal recu. 

2. Procede de reconnaissance de parole distribute selon la 
revendication 1, selon lequel le signal emis par le terminal utilisateur a 
destination du serveur est selectionne parmi au moins le signal audio a 
reconnaTtre et un signal indiquant les parametres de modelisation ; 

selon lequel si le signal recu est de type audio, le serveur calcule des 
parametres de modelisation du signal audio recu, et tente d'associer une forme 
memorisee aux parametres de modelisation du signal audio recu ; 

et selon lequel si le signal recu indique des parametres de 
modelisation, le serveur tente d'associer une forme memorisee auxdits 
parametres de modelisation. 
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3. Precede selon la revendication 1 ou la revendication 2, selon lequel 
I'obtention au terminal du signal a reconnattre comporte une detection 
d'activite vocale pour produire le signal audio a reconnaitre sous forme de 
segments de parole extraits d'un signal audio d'origine en-dehors de periodes 
5 d'inactivite vocale. 

4. Procede selon la revendication 3, selon lequel le signal emis est un 
signal selectionne parmi au moins le signal audio d'origine, le signal audio a 
reconnaitre sous forme de segments extraits apres detection vocale et le signal 
1 0 indiquant les parametres de modelisation. 

5 p r ocede selon la revendication 2 a 4, seion lequel lorsque le signal 
recu est de type audio : 

- si le signal audio recu est sous forme de segments de parole extraits 
15 apres detection vocale. le serveur calcule des parametres de modelisation du 
signal recu et tente d'associer une forme memorisee aux parametres de 
modelisation du signal audio recu ; 

-sinon le serveur realise une detection d'activite vocale appliquee au 
signal audio recu pour produire un signal audio sous forme de segments de 
20 parole extraits du signal audio recu en-dehors de periodes d'inactivite vocale, 
puis calcule des parametres de modelisation du signal audio et tente d'associer 
une forme memorisee aux parametres de modelisation. 

6. Procede selon I'une quelconques des revendications precedentes, 
25 selon lequel on choisit la forme memorisee associee determinee au niveau du 

terminal quand elle existe. 

7. Procede selon les revendications 1 a 5 selon lequel on choisit la 
forme memorisee associee d6terminee le plus rapidement. 

30 
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8. Procede selon les revendications 1 a 5 selon lequel on choisit la 
forme memorisee associee la meilleure selon un critere de choix defini. 



9. Terminal utilisateur pour mettre en ceuvre un procede de 
reconnaissance de parole distribute selon Tune des revendications 1 a 8, 
comportant : 



audio; et 



des moyens detention d'un signal audio a reconnaTtre ; 

des moyens de calcul de parametres de modelisation du signal 



10 - des moyens de controle pour selectionner un signal a emettre a 

destination du serveur parmi le signal audio a reconnaTtre et un signal indiquant 
les parametres de modelisation calcules, 

des moyens de reconnaissance pour associer au moins une 
forme memorisee a des parametres de modelisation calcules par les moyens 
15 de calcul. 



10. Terminal utilisateur selon la revendication 9 dans lequel les moyens 
d'obtention du signal audio a reconnaTtre comprennent des moyens de 
detection d'activite vocale pour produire le signal a reconnaTtre sous forme de 
20 segments de parole extraits d'un signal audio d'origine, en-dehors de periodes 
d'inactivite vocale. 



25 



11. Terminal utilisateur selon la revendication 10 dans lequel les 
moyens de controle sont adaptes pour selectionner au moins un signal a 
emettre a destination du serveur parmi le signal audio d'origine, le signal audio 
a reconnaTtre sous forme des segments de parole extraits par les moyens de 
detection d'activite vocale et le signal indiquant les parametres de modelisation 
calculus. 



r 
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1 2. Terminal utilisateur selon les revendications 9 a 1 1 , dans lequel au 
moins une partie des moyens de calcul de parametres et des moyens de 
reconnaissance est telechargee depuis !e serveur. 



5 13. Terminal utilisateur selon les revendications 9 a 12, comportant des 

moyens de determination de la forme memorisee a choisir entre les formes 
memorisees determinees respectivement au terminal et au serveur. 

14. Serveur pour mettre en oeuvre un procede de reconnaissance de 
10 parole distribute selon Tune des revendications 1 a 8 comprenant : 

des moyens de reception en provenance d'un terminal utilisateur 
d'un signal selectionne audit terminal ; et 

- des moyens de reconnaissance pour associer au moins une forme 
memorisee a des parametres de modelisation en entree. 

15 

15. Serveur selon la revendication 14 comprenant en outre : 

des moyens de calcul de parametres de modelisation d'un signal 

d'entree; 

des moyens de controle pour commander les moyens de calcul et 
20 les moyens de reconnaissance de facon a : 

lorsque le signal recu par les moyens de reception est de type 
audio, activer les moyens de calcul de parametres en leur adressant le signal 
selectionne en tant que signal d'entree, et adresser les parametres calcules par 
les moyens de calcul aux moyens de reconnaissance en tant que parametres 
25 d'entree, et, 

lorsque le signal selectionne recu par les moyens de reception 
indique des parametres de modelisation, adresser lesdits parametres indiques 
aux moyens de reconnaissance en tant que parametres d'entree. 
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16. Serveur selon la revendication 15 comprenant en outre des 
moyens de detection d'activite pour produire le signal a reconnaTtre sous forme 
de segments de parole extraits d'un signal audio d'origine en-dehors de 

periodes g^nacM e^ wnt adapfes 

pour commander les moyens de calcul de parametres et les moyens de 
reconnaissance lorsque le signal recu est de type audio de fagon a : 

si le signal regu de type audio est sous forme de segments de 
parole apres detection d'activite vocale, activer les moyens de calcul de 
parametres en leur adressant le signal regu en tant que signal d'entree, puis 
adresser les parametres calcules par les moyens de calcul de parametres aux 
moyens de reconnaissance en tant que parametres d'entree ; 

sinon activer les moyens de detection d'activite vocale du serveur 
en leur adressant le signal regu en tant que signal d'entree, puis adresser les 
segments extraits par les moyens de detection d'activite vocale aux moyens 
de calcul de parametres en tant que parametres d'entree, puis adresser les 
parametres calcules par les moyens de calcul de parametres aux moyens de 
reconnaissance en tant que parametres d'entree ; 



17. Serveur selon I'une des revendications 14 a 16, comprenant des 
moyens pour telecharger des ressources logicielles de reconnaissance vocale 
par I'intermediaire du reseau de telecommunications a destination d'un 
terminal. 



18. Serveur selon la revendication 17, dans lequel lesdites ressources 
comprennent au moins un module parmi : un module de VAD, un module de 
calcul de parametres de moderation d'un signal audio et un module de 
reconnaissance pour associer au moins une forme memorisee a des 
parametres de modelisation. 
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19. Serveur selon les revendications 14 a 18, comportant des moyens 
de determination de la forme memorisee a choisir entre les formes memorisees 
determinees respectivement au terminal et au serveur. 
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